【レポート】社会人のためのデータサイエンス入門 ~ Week1 統計データの活用 ~
近頃は末端冷え性がひどい、新卒エンジニアのたいがーです?末端冷え性の改善方法、どなたか教えてください…
弊社 クラスメソッドの新卒エンジニアは、10月現在も新卒研修中です。研修期間では様々な部を周り、その部の業務を体験するという形の研修をさせていただいております。おそらく大抵の企業ではここまで長い研修はあまり例がないかもしれませんが、私はいろいろな部署に関して学ぶことができ、とても楽しいです。今後の予定として、12月にDA(データアナリティクス)事業本部での新卒研修を控えています。
私は社内Slackに分報チャンネル#times-tigerを作成しており、もちろん私も書き込んだり、いろんな方が書き込んでくださったりしています。ある日、そこにDA部所属のとある方から"メッセージとURL"が共有されました。
じゃ、ちょっとDAの研修前にこの辺のことやっといてもらっていいっスか?ww
ということで、今回は"社会人のためのデータサイエンス入門 Week1:統計データの活用"を視聴したので、そちらのレポートを書いていきたいと思います!
講義1-1. 大人がデータサイエンスを学ぶべき理由
スピーカー
株式会社データビークル 西内 啓 氏
医学に大きな考え方の変化を起こした統計学
医学の世界で、統計学は"経験と勘とロジカルシンキングという2つで意思決定を行い、間違えない判断をしようという考え方が、1980年代の終わり頃から医学の世界では少し廃れてきた"という大きな変化を起こした。
"急性心筋梗塞になった場合に抗不整脈薬を使えば、死亡者を減らせるはずである"というロジカルな考え方だとされた対策により、多くの患者さんがこの薬を使っていた。
- 上記の図において
- 青の線: 本来何の効果もないはずの薬を使われた方
- 緑の線: 抗不整脈薬を使われた方
- 縦軸: 生存率
- 横軸: 経過日数
1989年に行われたキャストスタディと呼ばれる中間解析の研究の中では、実際に不整脈の薬がどれくらい効果があるのかということを検証しようとした。ちなみに約1400名の研究参加者はランダムに半々に分けられているため、他の背景(年齢や性別など)の差はほとんどなくなると考えられる。
500日目の時点の結果を見てみると、青の線は2,3%の人しか亡くなっていないのに対し、緑の線は6,7%の人が亡くなっている状態である。つまり、いくらロジカルに正しかろうが、実際データをとってみると意外と逆効果だということが知られてくるようになった。
ここで、緑の方に状態が悪い方が固まったのではないかという批判があった。しかし、統計学で片方に悪い方が集まる状況が発生する可能性を求めることができ、確率は0.06%になった。つまり、極端な差というものが生まれてこないということがわかった。
1990年代以降、一般的に医療の世界で考えられるようになった根拠に基づく医療の意思決定の方法は、"エビデンス・ベースド・メディスン"と言われている。
ビジネスの世界でも活用できる統計学
ビジネスの世界、例えば会議の中でこのような二つの案が出たとする。
- 生産性の向上のため、頑張った社員にきちんとお金を支払うことで、モチベーションが上がり生産性が上がるのではないか
- お金をもらうことでモチベーションが下がってしまう人がいるのではないか、お金よりもむしろ表彰状を出した方がいいのではないか
こちらの問題についても、科学者はきちんと研究をしている。"金銭的な報酬を出して、どのくらいパフォーマンスが上がるか"という研究や、"お金ではない特別扱いをしたら、どのように変化が起きるか"など、過去に行われた研究をまとめ、その中で行われたデータ分析の結果をさらに集計し直した。
すると過去の研究の全体的な傾向で言うと、"お金を出した方が生産性が上がるのではないか、仕事のパフォーマンスが上がるのではないか"と言うことが実証されている。
データ分析に投資をしたときは、どれくらいメリットがあるのか
"統計学やデータ分析に投資をし、手間をかけた時にどれくらいメリットがあるのか"という研究も行われている。
過去に行われた事例を収集した場合、平均すると13倍という大きな結果になって返ってくることがわかった。
講義1-2. データサイエンスと統計
スピーカー
総務省統計局 佐伯 修司 氏
データサイエンスを身につけることの重要性が高まってきている現代社会
ICTの進展により、様々なものがインターネットに繋がり、ビックデータが生成、収集、蓄積されるようになり、これらをどのように活用していくかが大きな課題となっている。また、統計を始めとする公的なデータについても社会全体で活用するための「オープンデータ」化が進められている。このような流れの中で課題解決のためにデータサイエンスを身につけることの重要性が高まっている。
肝がん死亡率ワースト1位の佐賀県の課題から見るデータを活用した対策
佐賀県では、EBPM(Evidence-based Policy Making, エビデンスに基づく政策立案。今回の場合、エビデンスはデータである。)の推進を図っている。
ここ数年でより効果的な新薬が開発されたこともあり、県と医療機関が連携して肝炎の受療促進を行えば、肝がん死亡率ワースト1を脱却できるのではないかと、そのための対策について検討を行ってきた。
佐賀県では医療関係のデータを調査したところ、過去に肝炎ウイルス検査で陽性と診断された者が治療を受けているケースは全体の16%となっていた。そこで、陽性と診断されたときに治療を受ける場合、受けない場合の特徴を把握するため、肝炎治療の受領者と未受領者に対してアンケート調査を実施した。
その結果、医師が早い段階から治療に関する正しい情報の説明を行った方が受療率が高かったことから、医師向けのリーフレットを作成し、初期の段階での陽性の方に説明するという対策が実行され、肝炎受療促進につながっている。
佐賀県の事例を課題解決のフレームワークPPDACに当てはめると上記のようになった。
このような対策の結果、新薬開発の効果も相まって肝炎受領促進に繋がり、累積受療率が30.9%から40.8%に増加した。
本講座のねらい
統計を始めとするデータに基づく合理的な思考により課題を解決するためには、データを分析しその意味を考え具体的な対応策を考える力が必要である。
これまでデータ分析等に関わったことのない方にも理解しやすい内容になっている。
- 第1週: データの分析事例から、統計的な考え方やデータの見方への導入を図る
- 統計データから日本社会の現状をわかりやすく読み解く。
- 第2週: データ分析に必要な統計学の基礎
- 第3週: データの見方についての基本的な方法
- データを活用するための統計学的な考え方やデータの見方を習得する
- 第4週: 誰でも使える公的統計データの入手方法
- 総務省統計局で提供している政府統計の総合窓口のe-Stat
- 統計ダッシュボードの使い方
講義1-3. 平均値の見方〜分析事例① "平均値"にだまされない
スピーカー
総務省統計局 永井 恵子 氏
"平均値"は代表的な数値なのか
平均値というと、平均年収や平均点、平均年齢といったように非常に気軽に特にその言葉の意味を気にせずに代表的な値として使っているのではないか。
ここでの世帯の年間収入というのは、働いてない世帯(年金をもらっている世帯など)を含めての年間収入になっているので、648万円は少し多いような気がするかもしれない。
- このグラフにおいて
- 中央値: 年間の収入の低い方の世帯から順に並べて行き、ちょうど真ん中の世帯があるところ
- 最頻値: 最も金額階級が多いところ
中央値は平均値より低くなり、556万円となっている。また、最頻値も300~400万円だと示されている。
この結果から、平均値が必ずしもその分布の代表的な値とは言い難いということがわかる。
どこで代表値を判断するか
データの値の場所に同じ重さのお守りを置いたときに、バランスが取れるところが平均値となる。
- 左図: データが単峰性である場合
- どの値を代表値として使っても問題がない
- 中央図/右図: データに偏りがある場合
- 分布の端の方の極端な値の影響を受けないため、中央値で判断するのが適切
講義1-4. M字カーブの改善効果〜分析事例② "少子高齢化社会を支える労働力人口の増加のために"
スピーカー
総務省統計局 永井 恵子 氏
減少する日本の人口と労働力人口
今後、数十年に渡る人口の状況を表したグラフである。日本は2008年をピークとして、人口が減少する状況に入っている。
どのように労働力人口を確保していくかというのが今後の日本を支えていく上で重要な問題となっている。
そこで注目したいのが、非労働力人口である。非労働力人口の内訳は女性の方が多くなっている。ここをなんとか労働力化できないかというのが焦点になっていく。
女性が働いていけるような世の中にしていく
日本の女性の労働力人口比率を年齢階級別に見ると、結婚や出産期にあたる年代(20代後半から40代前半にかけて)で、労働力人口比率が落ちる。育児が落ち着いた時期にまた職を探したり、職についたりするというようなグラフを示している。これは、M字カーブと呼ばれている。
オレンジの線は、スウェーデンの女性の労働力人口比率になっている。スウェーデンは"ゆりかごから墓場まで"と言われるように社会福祉がきちんとしていて、女性が働きやすい環境が整っており、育児や出産の時期に仕事を辞めないのでM字ではない。
女性が働いていけるようになるにはどうしたら良いのかというと、育児、介護などの政策の充実、女性が働きやすい環境を整えていく制作が求められているのではないか。
1-5. 普及率の地域間比較〜分析事例③ "太陽光発電システムの普及率"
スピーカー
総務省統計局 永井 恵子氏
太陽光発電システムの普及の上昇
再生可能エネルギーとして最近注目が集まっている太陽光発電システムは、一般家庭で設置する場合には補助金を設けている自治体なども多くなっている。
太陽光発電システムを設置している住宅の数をみてみると、割合自体はまだ3%程度でそこまで高くないが、個数としては非常に伸びてきている。
太陽光の地域間比較に適しているのは、どのようなグラフなのか
太陽光発電システムがどのような地域で普及しているのか、地域間比較を行う場合には何で比較するのが正しいだろう。
このグラフは太陽光発電システムのある住宅数そのものをグラフにしたものである。これを見ると、大都市圏の人口も住宅数も多い地域が並んでくる。
住宅数そのもので比較してしまうと、どれだけ普及しているかということではなく、単にその母数の多い、今回でいう"人口が多いところ、住宅が多いところ"といったところに引きずられてしまう結果が出てくる。
普及率は分母に住宅数を置き、分子に太陽光発電システムを持っている住宅を用いて計算したものになる。その比率で比較すると、日照量の多い地域(九州のあたり)が赤くなっている。
このように地域間比較を行う場合には、何を用いて比較するかということが重要になってくる。
人口や世帯などのその大きさに比例するもの、引きずられてしまうデータ、数値を用いて分析してしまうと、実際の普及率や人気度合いなどが分からない分析になってしまう。地域間比較を行う際には、そういった点に注意が必要である。
1-6. 付加価値額と非正規職員比率の関係〜分析事例④ "付加価値額の産業間比較"
今回は相関関係について見ていくため、付加価値額の産業比較を行う。詳しい内容は2週目以降で説明されるため、1週目は全体の分析の仕方について大まかなところを掴んでいこう。
産業間の付加価値額の差はどこから生まれるのか
"付加価値額"とは
企業の生産活動等によって新たに生み出される価値。営業利益に給与予想額と租税公課を加えたものになっているので、一般的には人件費の高い産業で大きくなる傾向がある。
このグラフに示されている従業員一人当たり付加価値額と、従業員一人当たり給与総額の上位3産業は一致している。
産業間で付加価値に差があるのはなぜだろう。
付加価値額の小さな産業は飲食サービス業、生活関連サービス業、宿泊業が並ぶ。次に、非正規産業職員比率のグラフと見ると、飲食サービス業が非常に非正規職員比率が高くなっていて、その次に小売業、娯楽業が並ぶ。
これらの関係から非正規職員比率と付加価値額の大きさには関係があるのはないかと考えた。
付加価値額の産業間比較
このグラフは縦軸に従業員一人当たりの付加価値額、横軸に非正規職員比率を用いて散布図を描いたものになっている。このグラフはなんとなく直線的な右下がりの関係があるように見えるのではないか。
"相関係数"とは
直線的な関係の強さを表す数値。-1から+1までの値をとり、+1に近づくほど正の相関が強く、-1に近づくほど負の相関が強い。
今回の相関係数を計算すると、"-0.77071"なので、非常に強い負の相関があることを表している。
負の相関があるということは、非正規職員比率が高いほど、従業員一人当たりの付加価値は低くなるということがわかる。
1-7. スポーツをデータで科学する〜分析事例⑤ "ワールドカップで勝つためには"
スピーカー
総務省統計局 永井 恵子氏
ワールドカップのデータを使った回帰分析のための被説明変数、説明変数
ワールドカップ 2010年のデータから勝つための要因を考えてみる。どうやったら勝てるかを回帰分析、因果関係を分析していく。
"ワールドカップで勝つために"という分析の目標からは、何を説明したいのかというもの(被説明変数)いくつか考えられる。その中で、今回は被説明変数を勝率とする。
また公表されているデータから、次に勝つために何をしたらいいのか、どうやったら勝てるのか(説明変数)を、"勝率に関係しそうな変数"を見つける必要がある。
得点力に結びつきそうな変数を探す
この散布図は、勝率とゴール枠内へのシュート数との関係を表したものである。縦軸(被説明変数)が勝率、横軸(説明変数)がゴール枠内へのシュート数に設定している。また、グラフに書かれている直線は回帰直線である。
2010年のワールドカップはスペインが優勝したはずである。グラフを見るとなんとなく正の相関があるのではないかと見て取れるのではないか。
決定係数R2は説明力の強さを表す数値である。yの変動のうち、xで説明できる割合を示しているので、この決定係数が大きい方が説明力が大きい。つまり、yの動きをよく説明しているとこうことが表される数値となっている。
ここでの決定係数R2は0.23894なので、そんなに大きくはない数値となっている。
回帰式の方は、このようになっている。これは何を表しているのかというとゴール枠内へのシュート本数が1本増えると勝率が0.0804上がるということを示している。
y=-0.0095+0.0804x
他に説明変数に使えるものとして、得点力に注目し、パス成功率と味方がボールを保有していた時の走行距離との関係性を調べてみる。
これらの3つの変数はいずれも得点に結びつく行動になっている。ただ勝率を上げるためには他の要因もあるのではないかというふうに考える。
次に、守備力に結びつきそうな変数を探してみる。左側は勝率とセーブ数の関係、右側はシュートをブロックした回数との関係を表したものになっている。
セーブ率の関係は右下がりになっており、R2は0.291145と結構高くなっているがマイナスの変数になっている。一方シュートをブロックした回数との関係は右上がりになっており、R2は0.2503でありプラスの変数となっている。
守備力に結びつきそうな変数というのは、一方でたくさん攻撃を受けていることを示している場合もあるので、なかなか安定的な変数となっていないかもしれないということが考えられる。
次に有力選手の有無を調べるため、バロンドールという最優秀選手賞の候補者になった選手の数を使う。
バロンドール2010候補者との関係を見てみると、やはり候補者の数が多い方がなんとなく勝率が高いのではないかという関係が見える。実際に計算してみるとR2は0.42183となり、式を見ると候補者が1人増えると勝率が0.07上がるということが表されている。
単回帰分析(1つの条件で回帰分析を行う)では、説明力はそこまで高いものは見つけられなかった。重回帰分析(いくつかの条件で回帰分析を行う)を行なってみるとR2は0.592282と若干上がった。
回帰分析の場合は、この後実際にそれを使って予測をするということができる。
ここではワールドカップ2014の結果を見てみよう。結果はドイツの優勝だった。
ドイツのデータを先ほどのワールドカップ2010のデータから計算した回帰式に当てはめてみると勝率は0.6778となる。実際は0.8567なので、ぴったり当たるというわけではない。
さらにその回帰式自体の説明力決定係数がそんなに高くなかったので、ここでは差が出てしまったが良い回帰式を推計することができれば予測も正確に行うことができるだろう。
1-8. 合計特殊出生率の見方〜分析事例⑥ "都道府県別合計特殊出生率から見る少子高齢化"
スピーカー
滋賀大学データサイエンス学部 伊達 平和氏
日本の少子高齢化の現状と今後を見てみる
WHO(世界保健機関)の基準では高齢化率が14%を超えると高齢社会、21%を超えると超高齢社会と定義している。日本の高齢化率は2017年の時点で27.7%であることから、約4人に1人の割合で高齢者がいる超高齢社会である。
このグラフは人口の実数を棒グラフで、高齢化率の推移を折れ線グラフで示したものである。このグラフによると1990年代から2010年代前半にかけて、日本は高齢社会から超高齢社会へと一気に進んできたことがわかる。
今後の予想はなだらかだが、2036年には3人に1人の割合となり、高齢化は一層進んでいくことが予測されている。
少子高齢化のもう一方の曲が少子化である。その代表的な指標に合計特殊出生率がある。日本の合計特殊出生率は戦後の10年で急激に人口置換水準近くまで低下し、その後の低下はなだらかである。
細かく見ていくと1966年に谷があることがわかる。この年は和暦の丙午年にあたり、出産を控えることが良いという迷信があることがから一時的に低くなった。
1989年はその時よりも出生率が下がった事から1.57ショックと言われた。2005年に戦後最低の合計特殊出生率である1.26を記録した後は回復傾向にあるが、依然として低い状況が続いている。
県別に見た合計特殊出生率
年次によってばらつきがあるが、近年では約0.7ポイントの差が日本の中でもあることがわかる。このようなデータはe-Statからダウンロードすることができる。(e-Statについては第4週で解説)
合計特殊出生率がどのような要因と関連があるのかは、様々な仮説がある。親との同居や近居、職場の支援や保育所の整備といった女性が安心して働くことのできる環境が安定した出産を支えるという考え方がある。
この仮説に従って、共働き世帯割合と先ほどの合計特殊出生率との関係を表したのが、こちらの散布図である。
決定係数のR2値を見ると0.148であることから、共働きという要因だけで子供の出征の多くを説明することができるわけではない。他にもいろいろな要因を検討したり、特徴のある県について詳しく調べることも重要である。
1-9. 国際比較データから日本社会を読み解く〜分析事例⑦ "国際比較データから見る平均寿命とGDPの関係と日本の特徴"
スピーカー
滋賀大学データサイエンス学部 伊達 平和氏
国際比較データから見る日本社会の高齢社会
この図によると1990年代後半に急激に高齢化が進み、超高齢社会の最先端を進んでいるということがわかる。
一方その他の地域を見ると特にアジアの台湾や韓国に注目すると、現在ではアメリカやイギリスより低い段階にはあるが日本より急激かつ日本を超える勢いで高齢化が進むことが予想されている。
合計特殊出生率の国際比較による日本の現状
欧米の地域との比較を行うと、60年代に一度上昇してからは70年代を通して人口置換水上まで下がった。80年代からの展開は大きく分けて2つの地域に分けられる。
アメリカ、スウェーデン、フランス、イギリスでは近年、出生率が回復している。一方、日本、ドイツ、イタリアといった国では出生率は1.5程度と低い状態が続いているのがわかる。
先ほどの高齢化率のグラフの例からもわかる通り、このように比較することで日本の特徴がより明確に見えてくる。
続いてアジアと比較した場合、日本以外のアジア地域でも同様に出生率の低下が起きていることがわかる。特に日本が70年代からなだらかな下降をしているのに比べて他のアジア地域は一気に人口置換水準まで低下した後、日本と同水準もしくは日本を下回る勢いで少子化が進んでいる。
特に台湾や香港では1を下回った時期もあり、2015年では韓国やシンガポールも日本より低く超低出生率になっていることがわかる。
このように高齢化、少子化とも欧米が比較的ゆっくり進み、一部では出生率を回復しているのに対してアジア地域は非常に急激に進んでいることから少子高齢化に対応する社会設計が求められている。特に超高齢社会に対応する必要のある日本はアジアの他の地域からもその動向に注目が集まっている。
欧米と比べた日本、アジアと比べた日本では見え方や気づきも異なってくるので、比較する対象の選定も重要なポイントとなる。
これらの統計データは国連統計やOECD経済協力開発機構のウェブサイトから入手可能である。
この図によると、日本人の平均寿命は83.9歳で最も寿命が長く、スペインやスイスが続いている。
長寿を維持するには健康が不可欠だが、一般的に国民の経済状況が良いところでは豊かな生活を起れたり高度な医療を受けたりできるため、健康度が高いと考えられる。
それでは、国民の豊かさは平均寿命と関連しているのだろうか。
平均寿命ランキングと同じ順番で一人当たりのGDPを示すとこのようになる。
平均寿命で2位だったスイスは一人当たりのGDPも高いが、日本やスペインはそれほどではない。またアメリカは平均寿命はそれほど長くないが、一人当たりのGDPは上位である。このように完全に国民の平和的な経済水準と平均寿命が関連しているわけではないことがわかる。
次に一人当たりのGDPと平均寿命の関係を調べてみる。
この図から、一人当たりGDPが高い地域ほど平均寿命が長い傾向があるということがわかる。
アメリカは一人当たりのGDPが高い割には平均寿命が短いようだ。日本は一人当たりGDPが中程度にあるにもかかわらず、寿命が長く経済的な豊かさという要因以外にも、例えば助け合いの人間関係、食文化の違い、気候の違いなどが影響していると考えられる。
このように、国際比較データを用いた分析を行うと、私たちの住んでいる国の特徴が明確に見えてくる。データを入手するには言語の壁もあるが不可能ではない。政府統計の中にもすでに国際比較データが収集されている調査報告もあるので、ぜひチャレンジしてみて欲しい。
感想
自身が生きていく中であまり関係がないと思っていた統計学でしたが、医療の現場やビジネス、そして日本の現状を知るために使われているということを知り、身近にある存在なのだと知りました。
講義が受け終わった後に確認テストがついており、しっかりと復習も行えました。
あと3週間分ありますが、ひとつずつ取り組んでいきたいと思います!以上、たいがーでした?